Local LLM

ローカルLLMは流れが速く、ウォッチしていないと状況の把握が困難です。

ChatGPTが出始めの時期、ローカルLLMではMetaのLLaMAや、派生のAlpacaが研究されていました。当時、私も状況がさっぱり分かりませんでした。

ここ数か月はある程度追っていたので、流れをざっくりまとめてみます。

LLMの規模を表す〇〇Bは10億単位です。8bitで量子化すれば1Bは約1GBに相当します。

量子化ビット数を下げればデータは小さくなりますが、性能は劣化します。ギリギリ実用になるのが4bitだと言われています。

GPUで動かすには、LLMのサイズ以上のVRAMが必要です。CPUでも動きますが遅いです。

続く~~